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摘要 : [目的 /意义 ] 国内 关联 数据 研究 尚 出 于 研究 发 展 的 初期 ， 理 论 研究 和 应 用 研究 也 都 尚未 成 熟 。 
通过 对 国内 外 研究 热点 主题 对 比分 析 ， 为 国内 关联 数据 研究 起 提供 借鉴 。[ 方 法 / 过程] 通过 数据 分 析 和 
文献 调研 ， 分 别 从 发 文 量 、 研 究 群体 、 词 频 以 及 主题 识别 等 方面 进行 中 外 研究 的 对 比分 析 ， 从 中 发 现 国内 
外 关联 数据 研究 存在 的 差距 。[ 结果 /结论 ] 在 对 比分 析 的 基础 上 , 针对 国内 关联 数据 研究 提出 研究 本 土 化 、 
注重 应 用 型 研究 、 优 化 研究 群体 结构 以 及 关注 关联 数据 学 科 化 应 用 4 点 发 展 建议 。 

关键 词 : 关联 数据 研究 热点 对 比分 析 数据 分 析 
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Á 2006 Œ T. Berners-Lee 提出 关联 数据 的 
概念 以 来 ,研究 人 员 便 开始 对 关联 数据 进行 深 
入 的 研究 。 关 联 数据 是 W3C 推荐 的 一 种 用 于 发 
布 和 联接 各 类 数据 的 规范 ， 旨 在 建立 一 个 映射 
所 有 自然 、 社 会 和 精神 世界 的 数据 网 络 ， 通 过 
对 大 千 世 界 万 事 万 物 及 其 相互 之 间 关 系 进 行 机 
器 可 读 的 描述 , 来 构建 一 个 一 个 富 含 语义 的 、 互 
联 互通 的 知识 海洋 ,使 人 们 可 以 在 更 大 范围 内 
准确 、 高 效 、 可 靠 地 查找 、 分 享 、 利 用 这 些 相 
互 关 联 的 信息 和 知识 站。 国内 对 关联 数据 的 关 
注 最 早 始 于 2008 E, HÉR, NESET EY 
举办 的 “数字 环境 下 图 书馆 前 沿 问 题 "研讨 班 
上 将 关联 数据 这 一 概念 正式 引入 国内 。 自 此 , E 
内 关于 关联 数据 的 研究 不 仅 在 数量 上 日 渐 增 


多 ,人 研究 的 主题 也 日 趋 广 泛 。 本 文通 过 对 国内 
外 相关 研究 文献 进行 共 词 分 析 、 主 题 挖 掘 ， 并 
借助 SPSS 、Sati 等 工具 进行 统计 、 主 题 聚 类 分 
析 等 ， 试 图 通过 对 比 找 出 国内 关联 数据 研究 的 
特点 与 不 足 ， 为 国内 关联 数据 研究 及 发 展 提供 
KF. 
O 数据 来 源 与 研究 方法 

本 文 研 究 数 据 力求 精准 、 全 面 ， 在 中 文 数 
据 的 收集 过 程 中 ， 笔 者 发 现 除 核心 词汇 “关联 
数据 ”以 外 还 有 一 些 其 他 关键 词 ， 笔 者 也 将 它 
们 列 入 检索 式 ; 在 保证 数据 全 面 性 的 同时 ， 考 
虑 到 中 文 词汇 的 多 义 性 ， 还 对 初步 的 检索 结 
做 了 进一步 的 人 工 筛选 ， 最 终 得 到 381 条 文献 
数据 。 在 中 文 数据 的 筛选 过 程 中 ， 笔 者 发 现 381 
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条 数据 基本 上 都 是 图 书馆 学 与 情报 学 (G25 ) 和 
计算 机 科学 (TP3 ) 领域 的 文献 ， 并 通过 文章 第 
一 作者 所 在 的 机 构 信 息 对 此 进行 了 验证 。 因 此 


表 1 中 英文 数据 来 源 信息 
来 源 数据 库 。 检索 结 
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在 英文 数据 的 收集 过 程 中 ,为 了 确保 对 比 的 有 
效 性 ， 本 文 对 研究 方向 做 了 限定 。 本 文中 英文 
数据 来 源 信息 具体 如 表 1 所 示 : 


数据 检索 日 期 (条 ) 检索 式 
中 国学 术 期 刊 全 时 间 (2006,2016) and ( 主题 〈 精 确 ) = 关联 数据 or 
中 文 数据 ”2016 年 1 月 2 日 文 数据 库 695 linked data or 关联 开放 数据 or linked open data or 链 
g 接 数据 or 链接 开放 数据 ) 
time(2006,2016) and (subject=linked data or linked 
英文 数据 “2016 年 1 月 2 Web of Science 1314 open data) and (language=English) and ( 研究 方向 


Core Collection 


本 文章 主要 应 用 统计 分 析 、 关 键 词 共 现 分 
析 和 对 比分 析 3 种 研究 方法 。 统 计 分 析 主 要 是 
试图 从 数据 量 的 角度 来 反映 研究 的 发 展现 状 以 
及 未 来 的 发 展 趋势 ; 关键 词 共 现 分 析 的 主要 原 
理 是 通过 关键 词 对 共同 出 现 的 次 数 来 反映 二 者 
ZIMA A, BEM BRASS EA Ma 
的 关系 结构 中 ;对 比分 析 可 以 很 好 地 反映 出 比 
较 对 象 之 间 的 不 同 ， 在 理论 研究 方面 ， 比 较 结 
果 可 以 很 好 地 指导 劣势 方 的 发 展 。 


QO Bua 


在 正式 的 数据 分 析 之 前 ， 本 文 对 所 获取 的 
数据 中 的 关键 词 项 进行 了 基本 清理 ， 清 理 方式 
主要 有 中 英文 合并 、 单 复数 合并 以 及 低 价值 词 
汇 剔除 等 。 为 了 对 数据 本 身 有 更 次 入 的 理解 ， 以 


论文 数量 (篇 ) 


=computer science or information science & library 
science) 


下 从 发 文 量 、 词 频 、 主 题 聚 类 及 核心 主题 判定 
等 方面 对 数据 内 容 进行 深度 挖掘 。 
3.1 发 文 量 分 析 

发 文 量 的 变化 能 够 反映 一 个 领域 的 发 展 状 
况 以 及 未 来 的 研究 趋势 ， 对 国内 外 关联 数据 研 
究 数 据 按照 时 间 进 行 统 计 ， 其 结果 见 图 1。 关 联 
数据 的 概念 最 早 在 2006 年 被 提出 站，2008 年 之 
后 便 进入 人 研究 的 快速 发 展期 ，2014 年 达到 了 发 
文 量 的 峰值 ， 之 后 的 研究 热度 呈 下 降 趋 势 。 国 
际 上 对 于 关联 数据 的 研究 表现 为 理论 与 实践 共 
同 发 展 的 态势 ， 随 着 关联 数据 理论 研究 主题 的 
丰富 和 内 容 的 深入 ， 国 外 关联 数据 事业 也 得 到 
了 长 足 的 发 展 。 相 比 于 国际 来 说 ， 国 内 相关 研 
究 具 有 一 定 的 滞后 性 一 一 国内 最 早 在 2008 年 
12 月 引入 了 关联 数据 这 一 概念 ， 而 最 早 见 刊 的 
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图 1 国内 外 关联 数据 


是 姚 小 乐 、 刘炜 等 人 翻译 自 E. Summers 等 人 的 
《LCSH,SKOS 和 关联 数据 》 一 文 ， 该 文 从 信息 
组 织 的 角度 对 关联 数据 做 了 基本 的 介绍 外 E 
内 关联 数据 研究 的 增长 也 较为 迅速 ， 并 呈现 进 
一 步 加 速 增长 的 趋势 ， 预 计 2017 年 会 出 现 发 文 
量 的 峰值 ， 但 由 于 受到 国际 研究 热度 下 降 的 影 
响 ， 国 内 发 文 量 的 峰值 也 可 能 会 提前 到 来 。 另 
外 ， 笔 者 还 根据 分 类 号 对 文章 的 学 科 信 息 进行 
了 统计 ， 中 文 数据 中 计算 机 科学 文献 占 比 约 为 
51% (202 篇 ) ， 图 书馆 学 情报 学 文献 占 比 约 
为 49% (196 篇 ) ， 同 属于 这 两 个 学 科 的 文献 共 
17 篇 ; 英文 数据 中 计算 机 科学 文献 占 比 约 92% 
(1275 篇 ) ， 图 书馆 学 情报 学 文献 占 比 为 8% 
左右 (107 篇 ) , 同属 于 两 个 学 科 的 文献 共 68 篇 。 
3.2 词 频 统 计 分 析 

关键 词 是 文章 研究 内 容 的 直接 体现 ， 词 频 
的 高 低 可 以 体现 出 关键 词 之 间 重 要 性 的 差异 ; 对 
国内 外 相关 数据 进行 关键 词 统 计 及 共 词 分 析 能 
够 反映 关联 数据 研究 的 热点 主题 以 及 热点 主题 
之 间 的 关系 结构 。 本 文章 使 用 SATI 3.2 进行 关 
键 词 抽取 和 词 频 统计 ， 中 文 数据 中 共 含 802 个 
关键 词 ， 英 文 数据 共 含 2 420 个 关键 词 。 由 于 篇 
幅 所 限 ， 这 里 只 列 出 词 频 大 于 或 等 于 4 次 的 中 
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关键 词 相似 度 矩阵 ( 11*11 矩阵 ， 见 表 4) 。 
3.3 主题 察 类 及 主题 识别 

主题 聚 类 是 文献 计量 学 常用 的 研究 方 
法 , 已 被 广泛 应 用 于 某 一 领域 的 主题 分 析 等 方 
面 , 它 利 用 词 与 词 之 间 的 关联 程度 进行 聚 类 , 形 
成 多 个 主题 。 本 文 对 中 文 关键 词 词 频 大 于 或 等 
于 5 次 的 数据 进行 聚 类 分 析 ， 去 除 核心 关键 词 
“关联 数据 ”和 “关联 开放 数据 ”后 共计 29 个 
( 占 关 键 词 总 数 约 4% 的 比例 ) 。 之 后 在 前 文 
分 析 的 基础 上 上， 选择 SPSS 中 的 ward 聚 类 算法 
进行 系统 聚 类 ， 并 得 到 聚 类 树 状 图 ( 见 图 2 ) 。 
之 所 以 考虑 ward 算法 ， 是 因为 该 算法 强调 簇 
内 的 差异 小 、 簇 间 的 差异 大 ， 突 出 强调 主题 徐 
内 部 的 同 质 性 ， 适 用 于 这 种 主题 相关 的 数据 样 
本 进行 进一步 集群 聚 类 。 以 选取 的 中 文 数 据 样 
本 为 参照 ， 选 取 前 4% 的 英文 关键 词 ( 约 100 
个 关键 词 ， 词 频 亦 为 大 于 等 于 5 次 ) ， 由 于 
SPSS 系统 聚 类 所 能 处 理 数据 量 有 限 ， 对 于 英文 
数据 的 主题 聚 类 文章 采用 Citespace 进行 关键 词 
聚 类 ， 在 未 做 人 为 调整 的 前 提 下 ， 数 据 的 聚 类 
效果 见 图 3。 主 题 聚 类 的 直接 目的 在 于 主题 识 
别 ， 主 题 识别 的 精准 与 否 与 前 期 的 主题 聚 类 歼 
果 有 着 重要 的 关系 。 本 阶段 的 主题 识别 主要 是 


文 关键 词 和 词 频 大 于 或 等 于 8 次 的 英文 关键 词 
( 见 表 2 ) ， 其 中 省 略 了 核心 关键 词 “ 关联 数据 
(linked data ) ”和 “关联 开放 数据 (linked open 

data ) "”。 另 外 ， 为 了 更 好 地 展现 高 频 关 键 词 之 

间 的 关系 ， 本 文 分 别 采 用 关键 词 共 现 和 矩阵 和 关 

刍 词 相似 度 和 矩阵 两 种 方式 对 中 英文 数据 进行 展 


通过 关键 词 反 向 回溯 文献 再 进行 人 为 识别 ， 所 
识别 的 结果 直接 来 源 于 分 析 数 据 。 由 于 所 有 关 
键 词 之 间 并 不 存在 严格 的 层级 关系 ， 在 忽略 树 
状 图 本 映 所 具有 的 层级 特性 的 前 提 下 ， 共 识别 
出 7 个 热点 研究 主题 ， 同 时 在 前 文 关键 词 共 现 
矩阵 的 基础 上 ， 通 过 计算 各 主题 的 战略 坐标 来 


示 ; 关键 词 共 现 矩阵 可 以 让 人 直观 地 了 解 到 两 
两 关键 词 之 间 的 共 现 频次 以 及 二 者 之 间 的 杂 玻 
关系 ， 而 关键 词 相似 度 和 矩阵 是 在 关键 词 共 现 矩 阵 
的 基础 上 为 了 减 小 误差 进行 的 归 一 化 处 理 ， 相 似 
度 和 矩阵 中 的 数值 都 在 0-1 之 间 , 数值 越 接近 1, K 
示 两 个 关键 词 之 间 的 主题 相似 度 越 大 ， 反 之 越 
小 。 本 文 分 别 利 用 Bicomb 2 和 SATI 3.2 构建 了 
两 类 矩阵， 但 由 于 篇 幅 所 限 ， 文 章 只 展示 英文 
关键 词 词 频 大 于 20 的 关键 词 共 现 和 矩阵 ( 12*12 
矩阵， 见 表 3 ) 以 及 中 文 关 键 词 词 频 大 于 10 的 


显示 研究 主题 的 热度 和 成 熟 度 ， 热 点 研究 主题 
依次 为 关联 数据 、 本 体 与 信息 组 织 (E) 、 关 
联 数据 发 布 (C) 、 关 联 数 据 与 图 书馆 服务 
(D) 、 关 联 数据 知识 发 现 (F ) 、 关 联 数据 资 
源 整合 (G ) 、 关 联 数据 可 视 化 (B ) 、 关 联 数 
据 语 义 互 联 (A )。 

英文 数据 的 主题 识别 是 基于 Citespace 所 形 
成 的 20 个 类 团 图 进行 的 ， 去 除 8 个 没有 形成 明 
显 聚 类 的 孤立 点 后 , 共 形 成 了 12 个 主题 类 团 ( 见 
图 3 ) ， 类 团 的 位 置 可 以 反映 研究 主题 所 处 的 位 
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关键 词 ， 需 要 说 明 的 是 所 形成 的 主题 标签 具有 
一 定 的 主观 性 ， 相 互 之 间 也 并 非 是 完全 独立 和 
平等 ， 但 所 形成 的 标签 基本 可 以 客观 反映 类 团 


置 ， 同 时 由 于 自动 生成 的 类 团 标 签 并 未 能 清晰 
反映 研究 主题 ， 本 文通 过 对 类 团 内 关键 词 进行 
人 工 回溯 的 方法 形成 了 新 的 类 团 标签 ， 表 3 在 


给 出 12 个 主题 具体 标签 的 同时 又 给 出 了 对 应 的 


表 2 关联 数据 和 


的 核心 研究 主题 。 


究 文献 关键 词 词 频数 据 


中 文 关键 词 词 频 英文 关键 词 词 频 中 文 关键 词 词 频 英文 关键 词 词 频 
语义 网 62 semantic web 248 开放 数据 5 Ee 10 
RDF 35 ontology 115 AIRS 5 information extraction 10 
图 书馆 33 RDF 93 语义 互联 5 data quality 10 
本 体 31 SPARQL 49 窒息 资源 5 integration 9 
数字 图 书馆 15 DBpedia 27 知识 链接 4 reasoning 9 
书目 数据 14 web of data 26 高 校 图 书馆 4 data mining 9 
知识 组 织 13 metadata 25 数据 融合 4 learning 9 
元 数据 12 open data 24 数据 集 4 cloud computing 9 
数据 网 络 12 data integration 23 语义 关联 4 data management 9 
URI 8 provenance 21 知识 组 织 系统 4 knowledge management 9 
D2R 8 OWL 17 语义 网 技术 4 management 9 
数据 可 视 化 8 semantic annotation 17 机 构 知 识 库 4 mapping 8 
知识 服务 8 web 17 ARN 4 vocabularies 8 
SPARQL 7 information retrieval 15 数据 共享 4 evaluation 8 
SKOS 6 verification 14 SPARQL 查询 4 question answering 8 
MARC 6 SKOS 14 BPA 4 open government data 8 
数据 发 布 6 interoperability 14 DBpedia 4 internet of things 8 
AER 6 big data 13 RDA 4 
crowdsourcing 8 
知识 发 现 6 visualization 12 元 数据 标准 4 
资源 整合 6 wikipedia 11 言 息 组 织 4 knowledge representation 8 
OCLC 6 semantic search 11 科学 数据 4 web services 8 
Drupal > languages 10 FRBR 4 similarity 8 
语义 Web 5 social media 10 数字 档案 资源 4 
数字 资源 5 cultural heritage 10 
共 词 分 析 5 interlinking 10 
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£3 英文 高 频 关 键 词 共 现 和 矩阵 ( 部 分 ) 


linked manti linked web of open data 
关键 词 open ontology RDF SPARQL DBpedia °F metadata CPSP ; provenance 
data web data data data integration 
linked data 477 158 6 64 49 27 14 20 9 11 9 16 
semanie 38 248 31 37 25 20 8 11 9 4 3 7 
web 
st a 31 118 13 10 5 3 3 3 3 4 0 
data 
ontology 64 37 13 115 9 9 0 0 4 3 2 1 
RDF 49 25 10 9 93 23 3 3 3 2 2 0 
SPARQL 27 20 5 9 23 49 2 2 0 0 1 1 
— DBpedia 14 8 3 0 3 2 27 0 0 1 0 1 
web of data 20 11 3 0 3 2 0 26 0 0 0 1 
metadata 9 9 3 4 3 0 0 0 25 1 0 0 
open data 11 4 3 3 2 0 1 0 1 24 0 0 
a 3 4 2 2 1 0 0 0 0 23 0 
integration 
provenance 16 7 0 1 0 1 1 1 0 0 0 21 


表 4 中 文 高 频 关 键 词 相似 度 矩 阵 ( 部 分 ) 
区 


关键 词 ”关联 数据 语义 网 RDF 图 书馆 “本 体 ATE E i 知识 元 数 ; 


数据 网 络 


QH 


BI 中 ”组织 
关联 数据 1 0.139 0.0584 0.0819 0.0445 0.0147 0.0416 0.0448 0.0141 0.0046 0.028 7 
语义 网 0.139 1 0.023 2 0.0122 0.0333 0.009 7 0 0.005 0.0054 0.033 6 0.048 4 


RDF 0.0584 0.023 2 1 0.003 6 0.003 8 0 0.0084 0 0.0098 0.0025 0.002 5 


Alte 0.0819 0.0122 0.0036 1 0.0039 0 0 0.0093 0.0025 0 0.022 7 

AYE 0.0445 0.0333 0.0038 0.0039 1 0.0086 0 0.0099 0.0027 0.0108 0 
-o B00147 0.0097 0 0 0.0086 1 0.00480.0205 0 0 0 
书目 数据 ”0.041 6 0 0.0084 0 0 00048 1 0.0055 0 0 0 
知识 组 织 0.0448 0.005 0 0.0093 0.0099 0.0205 0.0055 1 0 0 0 

元 数据 ”0.0141 0.0054 0.0098 0.0025 0.0027 0 0 0 1 0 0 
、 0.0046 0.0336 0.0025 0 00108 0 0 0 0 1 0.027 8 


数据 网 络 0.0287 0.0484 0.0025 0.0227 0 0 0 0 0 0.027 8 1 
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25 


数据 可 视 化 


SPARQL 14 


数据 发 布 18) 
oac C 21 
节目 数据 6 
MARC 16 


语义 网 


1 
数据 同 络 9 


共 词 分 析 


本 体 4 
skos E 15) 


元 数据 


Drupal 


2 
开放 数据 2 
知识 服务 1 

2 


if Web 


D2R F 1 


数字 图 书馆 


图 2 中 文 关键 词 SPSS BA 
表 5 英文 数据 主题 聚 类 分 析 数 据 


序号 ”主题 标签 对 应 关键 词 〈 部 分 ) 序号 ”主题 标签 对 应 关键 词 
1 ”本 体 、 词 表 与 ontology, ontology matching, 7 “关联 数据 质量 问 description logics, streams, 
元 数据 已 disambiguation, lexicon, metadata, 题 UY data quality, record linkage, 
lemon extraction, biology 
2 ”情感 分 析 与 语 8 ”大 型 关联 开放 数 big data, neural network, open 
义 挖掘 外 semantic, social media, opinion 据 的 可 视 化 中 data, visualization, models, 
mining, sentiment analysis, ontology management, 
classification mapreduce, big and open linked 
data( BOLD) 
3 ”关联 数据 管理 i ft i 9 SPARQL 查询 语 SPARQL, Bayesian networks, 
与 关联 发 现 系 ye oe ae 言 与 关联 数据 在 reuse, open government, 
A TRT ae | Saige as a BOP SS BOA, HAME mooc, e-commerce, usability, 
iscovery, provenance 业 中 的 应 用 中 information, impact 
4 关 ontology learning, services, service a ge rea = ape ren is 
composition, ranking, data mining, So . ioe, 4% i 
framework, privacy annotation, Wikipedia, domain 
ontology, patterns 
5 语义 检索 外 gusty language, sedri egiie, 11 关联 数据 发 布 与 data integration, information 
semantic search, information retrieval, 资源 整合 integr anon, natural languages, 
similarity, bootstrapping, sparql biomedical ontology, data 
i publishing, science 
6 知识 库 中 semantic web, data transformation, 12 关联 数据 推荐 系 


knowledgebase, database, tool, 
information extraction, statistics, 
resource 


统 与 隐私 保护 "” 


social networks, recommender 
systems, machine learning, 
security, identity, protection 
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人 @ 中 外 关联 数据 热点 研究 对 比分 析 

对 比分 析 是 认识 事物 并 发 现 比较 对 象 间 不 
同 点 的 有 效 方法 ， 通 过 中 外 关联 数据 研究 之 间 
的 对 比 不 仅 可 以 发 现 国内 外 关联 数据 研究 存在 
的 差异 ， 同 时 也 可 以 指导 国内 关联 数据 研究 的 
未 来 发 展 方向 。 
4.1 研究 群体 的 差异 

中 外 关联 数据 研究 群体 存在 较 大 的 差异 , 这 
在 一 定 程度 上 也 导致 了 二 者 在 研究 主题 方面 存 
在 的 差异 。 研 究 群 体 的 差异 本 质 上 是 一 种 研究 
视角 和 人 研究 方法 的 差异 ， 不 同 的 研究 群体 从 各 
自学 科 的 角度 来 审视 同一 研究 主题 ， 即 使 是 具 
有 一 定 交 义 的 某 些 学 科 ， 其 所 关注 的 研究 点 以 
及 人 研究 成 果 也 天 然 带 有 某 学 科 的 学 科 特 性 ， 这 
主要 是 由 人 研究 人 员 的 知识 结构 及 其 受过 的 学 术 
训练 决定 的 。 从 国内 外 关联 数据 的 研究 文献 数 
据 来 看 ， 承 载 关 联 数据 这 一 研究 课题 任务 的 学 
科 主 要 为 计算 机 科学 和 图 书馆 学 情报 科学 ， 因 


图 3 英文 关键 词 Citespace R% 


而 国内 外 关联 数据 研究 群体 的 不 同 主要 体现 在 
这 两 个 学 科 在 关联 数据 主题 上 比例 的 不 同 ， 比 
例 的 不 同 又 可 以 从 文献 所 属 学 科 和 研究 人 员 单 
位 两 个 角度 来 反映 。 从 文献 所 属 学 科 的 角度 来 
说 ， 国 外 图 书 情报 科学 文献 量 占 调研 数据 的 
8%， 而 国内 的 比例 则 高 达 近 50%; 从 研究 人 员 
所 属 的 研究 单位 来 看 ， 国 内 研究 关联 数据 的 学 
者 中 来 自 图 书 情报 领域 者 比例 高 达 90% 以 上 , 而 
国外 则 不 到 10%。 除 此 之 外 ， 尽 管 研究 人 员 
的 数量 、 核 心 作者 数量 以 及 单个 作者 的 发 文 量 
等 数据 都 可 以 反映 研究 群体 的 差异 ， 但 由 于 文 
章 是 将 国内 数据 与 国外 多 个 国家 的 数据 进行 对 
比 ， 绝 对 数量 的 对 比 具 有 一 定 的 不 合理 性 ， 故 
文章 未 对 此 进行 论述 。 总 体 来 说 ， 中 外 关联 数 
据 的 研究 群体 在 构成 比例 方面 存在 较 大 的 差 
异 ， 国 内 人 研究 群体 以 来 自 图 书馆 学 情报 领域 的 
研究 人 员 为 主 ， 国 外 主要 的 研究 力量 则 来 自 于 
计算 机 领域 。 
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4.2 人 研究 主题 的 广度 差异 

国外 关联 数据 研究 主题 较 国 内 全 面 、 完 
善 ， 并 逐渐 形成 了 较为 完整 的 关联 数据 研究 体 
系 ， 而 国内 相关 研究 依旧 存在 较 多 的 空白 点 。 对 
照 3.3 部 分 的 热点 研究 主题 发 现 ， 国 外 关联 数据 
研究 基本 覆盖 了 关联 数据 生命 周期 ( 见 图 4) 的 
各 个 阶段 ， 而 国内 的 关联 数据 研究 主题 主要 集中 
于 关联 数据 前 期 研究 的 部 分 阶段 ， 其 余部 分 阶段 


manual revision/authoring = 


storage/querying linked data 


ChinaXiv 合 作 期 刊 


的 研究 则 基本 空白 或 刚刚 起 步 。 对 比 中 外 关联 数 
据 热点 研究 主题 ， 可 以 发 现 国内 研究 的 空白 点 和 
新 兴 人 研究 点 ( 见 表 6 ) 国外 目前 的 研究 热点 
中 国内 尚未 出 现 的 研究 主题 属于 国内 空白 点 ， 可 
为 国内 关联 数据 研究 中 长 期 的 发 展 提供 方向 ; E 
外 目前 的 研究 热点 中 国内 已 经 出 现 但 尚未 发 展 成 
为 热点 的 研究 主题 属于 新 兴 研 究 点 ， 可 为 国内 关 
联 数据 当下 的 研究 方向 提供 参考 。 


interlinking/fusion 
classification/enrichment 


it 


extraction/publishing evolution/repair 
search/browsing/ 
= 


6 国内 关联 数据 研究 中 的 新 兴 研 究 点 与 研究 空白 点 
新 兴 研 究 点 研究 空白 点 
关联 数据 术语 服务 关联 数据 本 体 建 模 


关联 数据 挖掘 关联 数据 本 体 匹 配 、 融 合 
关联 发 现 关联 数据 情感 分 析 
关联 数据 权益 保护 P 关联 数据 观点 挖掘 
关联 数据 搜索 引擎 上 关联 数据 管理 系统 
SPARQL 查询 语言 四 关联 数据 算法 研究 
关联 数据 质量 问题 站 关联 数据 本 体 学 习 
关联 数据 推荐 系统 关联 数据 语义 标注 
关联 数据 可 视 化 P 关联 数据 信息 抽取 
关联 数据 与 电子 政务 8 关联 数据 知识 库 
关联 数据 与 教育 资源 共享 ”关联 数据 与 电子 商务 


关联 数据 集 质量 评估 PI 关联 数据 机 器 学 习 
关联 数据 机 构 评价 ” 关联 数据 的 学 科 应 用 
关联 数据 资源 整合 关联 数据 自然 语言 处 理 

关联 数据 信息 安全 


图 4 关联 数据 生命 周期 


4.3 研究 主题 的 深度 差异 

由 3.3 部 分 SPSS 分 析 得 到 国内 关联 数据 
研究 主要 集中 于 7 个 研究 主题 ， 国 外 关于 这 些 
问题 的 研究 已 经 较为 成 熟 或 起 步 较 早 ， 但 即使 
对 于 相同 的 研究 问题 ， 国 内 外 研究 也 存在 较 大 
的 不 同 ， 即 针对 同一 研究 主题 的 研究 深度 亦 有 
不 同 。 主 要 体现 在 两 个 方面 : 一 是 同一 主题 下 
的 子 研究 主题 的 多 样 性 有 所 差异 ， 二 是 同一 研 
究 主 题 的 应 用 性 研究 数量 不 同 。 以 关联 数据 生 
命 周 期 的 第 一 个 阶段 ， 同 时 也 是 国内 目前 研究 
相对 较为 成 熟 的 “关联 数据 发 布 ” 人 研究 主题 为 
例 ， 其 国内 外 研究 差异 如 表 7 所 示 : 
4.4 研究 主题 的 发 展 趋势 及 研究 模式 的 差异 

国内 外 关联 数据 研究 不 仅 在 当前 具有 较 大 
差异 ， 甚 至 在 未 来 的 研究 发 展 方向 和 趋势 方面 
也 会 存在 一 定 的 差异 。 国 内 关联 数据 研究 的 发 
展 方向 主要 为 关联 数据 可 视 化 、 关 联 数据 挖掘 
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表 7 国内 外 关于 “关联 数据 发 布 ”的 研究 对 比 
分 析 点 国内 “关联 数据 发 布 ” 研究 国外 “ 关联 数据 发 布 " 研究 
关联 数据 发 布 具 研究 关联 数据 发 布 系统 、 工 具 开发 
图 书馆 关联 数据 发 布 方法 研究 艺术 、 环 境 、 农 业 、 教 育 、 政 府 、 医 药 等 多 领域 的 关 
WAS RY 政府 关联 数据 发 布 PO 联 数据 发 布 
图 书馆 书目 数据 发 布 书目 、 词 表 、 本 体 、 元 数据 、 科 学 数据 的 关联 数据 发 布 
图 书馆 词 表 资源 发 布 关联 数据 发 布 标准 、 方 法 研究 
SE PED ZRH HE 、 Ht 、 系统 开 发 研究 、 
研究 类 型 国内 外 研究 综述 、 国 外 案例 分 析 、 理 论 研究 T ERETO ET AARAM 
灶 ,主要 为 现状 综述 和 理论 研究 ， 鲜 有 应 用 性 研 主要 为 学 科 领 域 应 用 性 研究 ， 基 本 邦 是 实证 性 研究 ， 
_ 究 ， 论 述 对 象 主要 为 图 书馆 馆藏 资源 理论 研究 与 应 用 研究 协调 发 展 
等 新 兴 人 研究 点 和 研究 空白 点 ， 且 短期 内 研究 的 以 发 现 国内 外 相关 人 研究 存在 一 些 差 异 ， 也 能 指 


主要 方式 仍 是 介绍 国外 相关 主题 的 研究 现状 和 
内 容 ， 但 随 着 国内 研究 的 深入 ,各 主题 领域 的 
应 用 性 研究 数量 可 能 会 逐渐 增多 。 相 较 而 言 ， 


导 国 内 关联 数据 研究 的 发 展 : 首先 ， 可 以 优化 
国内 研究 群体 结构 ， 引 入 新 的 研究 力量 一 一 
学 科 背 景 不 同 在 一 定 程 度 上 决定 了 研究 关注 的 


外 关联 数据 质量 研究 体系 更 为 完善 ， 理 论 与 应 
用 研究 协调 发 展 ， 研 究 已 经 逐步 进入 了 缓慢 发 
展 时 期 ， 研 究 数量 可 能 会 继 2015 年 后 进一步 减 
少 ; 关联 数据 整合 应 用 和 学 科 化 应 用 和 关联 数 
据 联 合 查询 以 及 关联 数据 质量 问题 是 目前 国外 
关联 数据 研究 遇 到 的 瓶颈 问题 ， 这 也 是 国外 研 
究 的 主要 发 展 方向 。 

整体 上 来 看 ， 国 内 外 关联 数据 研究 的 模式 
存在 较 大 的 差异 ， 国 外 研究 进程 基本 属于 循序 
渐进 的 模式 ， 在 理论 研究 与 应 用 人 研究 协调 发 展 
的 基础 上 ， 稳 步 地 推进 并 理 顺 关联 数据 生命 周 
期 中 各 阶段 的 循环 发 展 ， 是 一 种 需求 驱动 的 发 
展 形式 。 国 内 则 可 能 是 由 于 起 步 时 间 较 晚 以 及 


重点 ， 人 研究 形式 等 也 会 有 所 差异 ， 引 入 计算 机 
科学 领域 的 研究 力量 是 深化 国内 关联 数据 研究 
的 途径 之 一 ， 有 助 于 关联 数据 研究 的 合理 、 健 
康 发 展 。 其 次 ， 在 深化 理论 研究 的 同时 ， 应 积 
极 开展 应 用 型 研究 。 即 不 仅 要 关注 关联 数据 概 
念 、 原 则 、 发 布 方法 、 整 合理 论 等 方面 的 理论 
研究 ， 同 时 更 要 关注 发 布 工具 、 资 源 整 合 工具 
以 及 质量 评估 工具 的 开发 应 用 。 再 次 ， 应 关注 
关联 数据 的 学 科 化 应 用 ， 打 破 图 书馆 概念 实体 
的 限制 。 在 关注 图 书馆 关联 数据 应 用 发 展 的 同 
时 ， 更 应 积极 探索 关联 数据 在 农业 、 环 境 、 教 
育 、 医 药 等 领域 的 专业 化 应 用 。 最 后 ， 要 注重 
关联 数据 研究 的 本 土 化 。 国 内 当前 的 关联 数据 


研究 人 员 的 学 科 背 景 差异 ， 在 对 国外 研究 的 重 
点 介绍 关联 数据 研究 中 占有 很 大 的 比重 ， 研 究 
形式 多 以 综述 和 案例 分 析 为 主 ， 同 时 也 并 非 是 
依据 研究 需求 的 发 展 依次 引入 关联 数据 生命 周 
期 中 各 阶段 的 研究 主题 ， 例 如 在 关联 数据 前 期 
各 阶段 研究 尚未 成 熟 的 情况 下 ， 关 联 数据 整合 
已 成 为 国内 关联 数据 研究 的 热点 主题 。 


@ 结 论 


通过 对 国内 外 关联 数据 研究 领域 的 发 文 
词 频 、 主 题 、 研 究 群 体 等 的 分 析 ， 不 仅 可 


=}? 


里 、 


人 研究 所 基于 的 数据 资源 基本 都 是 外 文 资源 ， 由 
于 中 文 数 据 在 转化 为 关联 数据 的 过 程 中 会 碰 到 
一 些 中 文 数据 所 特有 的 问题 ,如 URI 配置 等 , 关 
联 数据 研究 本 土 化 是 国内 关联 数据 事业 发 展 的 
首要 前 提 之 一 。 
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A Contrastive Analysis of Linked Data Research Hotspots at Home and Abroad 
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Abstract: The same to Chinese abstract. [Purpose/significance] The domestic research on linked data 
is still in its initial stage. With theoretical research and application research being immature, this study could 
provide some inspiration and references fordomestic research on linked data. [Method/process] By reviewing 
lots of literature and the systemic analysis, this study has analyzed the differences between domestic and 
international researches in terms ofthe quantity of published papers, research groups, word frequency and 
subject identification. [Result/conclusion] Based on the analysis above, this article proposes four tips to 
promote the development of domestic research on linked data, including indigenous research, paying more 
attention to application research, optimized the structure of research groups and focusing on multidisciplinary 
applications. 
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